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摘要 : [目的 /意义 ] 健康 医疗 大 数据 是 我 国 重 要 的 基础 性 战略 资源 ,本 研究 对 中 文 电子 病历 分 词 与 实体 识 
别 的 探讨 与 实证 较 好 地 完成 了 医疗 数据 的 信息 抽取 任务 ,对 今后 医疗 大 数据 在 语义 层面 的 应 用 发 展 具 有 重要 
意义 。[ 方 法 /过 程 ] 本 研究 首先 融合 权威 词 表 、 官 方 标准 、 健 康 网 站 数据 及 其 他 医学 补充 词 库 构 建 了 词语 数量 
级 达到 10 万 的 医学 词 表 ;然后 对 电子 病历 的 字段 进行 分 词 ,对 比 了 jieba 工具 、 导 入 词典 后 的 jieba、 无 监督 学 习 
及 AC 自动 机 4 种 模型 的 分 词 效果 ;最 后 ,以 自动 分 词 和 人 工 标 注 结果 为 语 料 , 实 现 基 于 条 件 随机 场 的 电子 病历 
实体 识别 研究 ,并 比较 不 同 实体 类 别 以 及 不 同文 本 特征 下 的 实体 识别 效果 , 选 出 最 优 模板 。[ 结果 /结论 ] 分 词 
结果 显示 ,AC 自动 机 的 效果 最 好 ,F 值 可 达 82% ;实体 识别 结果 表明 ,“ 检 查 ” 和 “疾病 ”实体 的 识别 效果 最 好 ， 


症状 ”的 识别 效果 不 太 理 想 。 
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电子 病历 是 医务 人 员 在 医疗 活动 过 程 中 ,使 用 信 
总 录 统 生成 的 文字 .符号 .图 表 、 图 形 、 数 字 .影像 等 数 
字 牙 信息 ,是 居民 个 人 在 医疗 机 构 就 诊 过 程 中 产生 和 
被 沁 录 的 完整 .详细 的 临床 信息 资源 ""。 这 些 资源 中 
包 集 大 量 潜在 知识 ,对 其 进行 挖 抉 ,一 方面 可 为 医务 人 
员 狗 供 临 床 决策 的 辅助 和 支持 , 另 一 方面 可 带 来 健康 
医疗 模式 的 变化 ,提升 健康 医疗 服务 效率 和 质量 。 然 
而 ;我国 健康 医疗 大 数据 研究 仍 处 于 早期 阶段 ,电子 病 
历 中 大 部 分 信息 以 非 结 构 化 的 文本 形式 保存 ,仅仅 通 
过 简单 的 分 词 无 法 识别 与 挖掘 ,需要 针对 医学 文本 中 
大 量 专业 术语 、 众 多 新 登录 词 以 及 结构 化 描述 语言 台 
村 点 ,精进 分 词 方法 ,并 进一步 识别 医学 实体 。 

鉴于 此 ,本 文 首先 从 电子 病历 的 中 文 分 词 人 手 , 按 
照 不 同 医学 实体 的 类 别 , 尽 可 能 多 并 准 地 收集 医学 词 
汇 ,形成 医学 词典 ,探讨 并 比较 基于 词典 方法 、 基 于 无 
监督 学 习 方 法 以 及 多 种 方法 的 混合 对 中 文 病历 的 处 理 
效果 ;然后 基于 条 件 随机 场 算法 对 电子 病历 中 的 疾病 、 
症状 .检查 .药物 和 手术 实体 进行 识别 ,完成 病历 的 信 
息 抽取 任务 。 


2 文献 综述 
2.1 中 文 分 词 方法 综述 

分 词 是 自然 语言 处 理 过程 中 最 基础 的 语言 处 理 模 
型 之 一 。 中 文 的 语言 构成 比较 复杂 ,难以 进行 准确 词 
语 识别 。 目 前 常见 的 中 文 分 词 方法 主要 包括 两 种 : 基 
于 词典 的 语言 匹配 模型 ;基于 统计 和 机 器 学 习 的 计算 
模型 。 
2.1.1 基于 词典 的 语言 匹配 模型 ”该 方法 是 指 词典 
中 的 每 个 词 与 被 处 理 文档 之 间 逐 一 匹配 的 过 程 。 单 词 
匹配 时 ,常用 的 方法 有 最 大 匹配 法 ,逆向 最 大 匹配 法 ， 
最 小 匹配 法 ,最 少 切 分 法 。 这 些 方 法 的 基本 思路 类 似 ， 
主要 策略 是 通过 保存 在 编译 的 词典 中 的 大 量词 条 集 来 
匹配 被 处 理 文档 以 找到 可 能 的 分 词 方式 。 
2.1.2 基于 统计 和 机 器 学 习 的 计算 模型 ”该 方法 主 
要 是 通过 相应 模型 来 计算 被 分 片段 是 否 成 为 一 个 词组 
的 概率 。 其 中 最 常见 的 模型 为 隐 马 尔 可 夫 模 型 和 无 监 
督 分 词 模 型 。 隐 马尔 可 夫 模 型 ( Hidden marcov model， 
HMM) 是 发 现 新 词 或 未 登录 词 识别 时 用 到 一 种 方案 。 
刘 群 等 ”通过 Viterbi 算法 标注 出 全 局 最 优 的 角色 序 
列 ,然后 在 角色 序列 的 基础 上 ,利用 HMM 识别 出 未 登 
录 词 ,并 计算 出 真实 的 可 信和 度 。 李 兆 福 ” 利用 N - 最 
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短路 径 算法 ,形成 被 测 文本 的 有 向 图 ,降低 了 分 词 算法 
时 间 复 杂 度 ,为 分 词 提供 了 新 的 思路 。 

目前 中 文 分 词 工具 和 各 方面 的 应 用 很 多 ,如 搜索 
引擎 .语音 识别 技术 .自动 分 类 技术 等 。 特 别 是 2014 
年 以 来 不 少 学 者 把 分 词 技术 应 用 于 医学 领域 ,对 医学 
领域 的 文本 进行 分 词 并 利用 。 从 整体 来 看 ,在 医学 文 
本 处 理 过 程 中 经 常 出 现 许多 医学 专用 词 ,如 药品 \ 疾 
病 .身体 器 官 .手术 方法 等 。 如 果 利 用 常用 的 分 词 工具 
进行 处 理 , 病 历 分 词 效果 和 识别 率 会 大 幅 下 降 , 有 必要 
采取 一 定 的 措施 对 医学 专用 词 进行 识别 。 张 立 邦 外 利 
用 半 监 督学 习 , 包 括 有 序 聚 类 ,期望 极 大 算法 (EM) ,对 
电子 病历 进行 分 词 ,并 且 从 病历 中 进行 了 对 象 .药物 等 
的 命名 实体 识别 。 同 年 , 张 立 邦 等 后 又 利用 无 监督 的 
并 对 电子 病历 进行 了 研究 ,在 EM 概率 模型 的 基础 
上 = 通过 信息 焙 构 建 良 度 ,把 未 登录 词 识别 问题 转换 为 
语 之 间 的 最 优化 问题 ,利用 动态 规划 算法 进行 分 词 
锯 的 求解 。 此 外 ,还 有 学 者 将 词典 和 机 器 学 习 方 法 
相 码 合 , 对 电子 病历 进行 分 析 。 李 国 牟 等 "通过 词典 
得 统计 相 结合 的 分 词 算法 ,对 出 院 记录 进行 了 分 词 处 
瑶 > 并 对 临床 术语 和 治疗 方案 进行 潜在 语义 分 词 ,对 胃 
癖 的 分 词 方法 进行 了 研究 。 
2CD 实体 识别 方法 综述 


些 研究 使 用 ,因为 有 非常 方便 的 开源 工具 支持 , 如 
MetaMap'? MedEx00l ceTAKES ,不 过 这 些 工具 也 仅 
针对 英文 文本 ,毕竟 目前 权威 中 文 医 学 词典 较 少 ,规则 
设计 也 难以 涵盖 所 有 特例 。 

2.2.2 基于 机 器 学 习 的 医学 实体 识别 ”由 于 规则 获 
取 对 专家 的 依赖 性 , 越 来 越 多 的 研究 人 员 将 重点 放 在 
了 基于 机 器 学 习 的 医学 实体 识别 上 。Y. Li 和 S. 工 . 
Gorman 使 用 9 679 份 英文 临床 报告 建立 了 隐 马 尔 科 
夫 模 型 ,识别 了 报告 中 不 同 模块 (如 主诉 、 过 敏 情况 、 家 
族 史 过往 手 术 史 等 ) 的 出 现 顺 序 ; 王 胶 远 和 姬 东 鸿 上 1 
分 析 了 英文 病历 中 的 复合 疾病 问题 ,构建 了 多 标签 
CRF 模型 。 中 文 电子 病 历 方面 , 叶 栅 等 “采用 条 件 随 
机 场 模 型 ( Conditional random field, CRF) ,引入 词性 特 
征 \ 构 词 模式 特征 、 词 边界 特征 和 上 下 文 特征 ,识别 了 
250 份 中 文 病历 中 的 疾病 、 临 床 症状 和 手术 操作 三 类 
命名 实体 ;本 Lei 等 人 "比较 了 条 件 随机 场 、 支 持 向 量 
机 (SVM) 、 最 大 炉 (ME) 和 结构 化 支持 问 量 机 (SSVM) 
对 400 份 中 文人 院 记录 和 出 院 小 结 文 本 的 实体 识别 效 
果 进 行 分 析 , 结 果 显 示 SSVM 具有 最 高 的 了 值 ( 入 院 记 
录 93.51% ,出 院 小 结 90.01% ) ;J，Liang 等 中 提出 了 
一 种 级 联 型 中 医药 实体 识别 方法 , 即 结 合 SVM 和 CRF 
算法 的 句子 类 别 分 类 器 ,该 分 类 器 对 中 药 的 识别 正确 


SS 由 于 本 文 的 主要 研究 对 象 为 临床 电子 病历 ,隶属 
于 僚 学 领域 ,因此 主要 对 健康 医疗 领域 中 的 实体 识别 
请 笑 做 一 总 结 。 目 前 常用 的 实体 识别 方法 主要 包括 以 
下 在 种 :基于 词典 和 规则 的 方法 ,基于 机 器 学 习 的 方 
2.251 基于 词典 和 规则 的 医学 实体 识别 ”基于 规则 
的 医学 识别 方法 主要 依靠 术语 词典 及 领域 专家 。 早 在 
1995 年 ,哥伦比亚 长 老 会 医学 中 心 ( Columbia Presbyte- 
rian Medical Center，CPMC ) 的 专家 们 设计 出 了 
MedLEE 系统 7 ,该 自然 语言 处 理 系统 的 主要 任务 是 
从 病人 报告 中 提取 .结构 化 并 编码 临床 信息 ,从 而 与 临 
床 信息 系统 相 结合 。MedLEE 系统 2012 年 还 被 M. 
Sevenster 等 学 者 用 于 从 放射 学 报告 中 提取 人 体 器 官 和 
临床 发 现 之 间 的 关系 ,并 得 到 了 82. 32% - 91.37% 的 
准确 度 ”。 近 20 年 间 ,MedLEE 系统 仍 能 取得 良好 效 
果 的 重要 原因 之 一 在 于 大 型 医学 受 控 术 语词 典 的 支 
持 。 美 国 国立 医学 图 书馆 自 1986 年 起 开发 的 统一 医 
学 语言 系统 (Unified medical language system ,UMLS ) 
以 及 CPMC 在 此 基础 上 创建 的 医学 实体 词典 ( Medical 
entities dictionary ,MED) "都 为 基于 规则 的 医学 实体 
识别 奠定 了 基础 。 虽 然 这 种 方法 较为 原始 ,但 颇 有 一 


率 高 达 94.2% ,西药 的 评 佑 下 值 也 达到 了 91.7% 。 

综 上 所 述 ,我 们 发 现 : 中 在 电子 病历 分 词 方面 , 虽 
然 分 词 技术 在 医学 领域 中 的 应 用 越 来 越 重要 ,但 是 病 
历 本 身 的 非 结构 性 及 无 统一 格式 等 问题 ,分 析 效 果 难 
以 提高 ,针对 性 比较 强 ,整体 缺乏 通用 的 分 析 方法 ; 
G@ 在 电子 病历 实体 识别 方面 ,研究 人 员 对 病例 的 实体 
标注 一 般 基 于 人 工分 词 的 方法 完成 ,事实 上 不 同人 的 
分 词 标准 很 难 统一 ,分 词 的 细 粒 度 对 实体 识别 准确 率 
影响 较 大 。 本 研究 将 分 词 和 实体 识别 视 为 两 个 关联 任 
务 ,首先 通过 对 比 不 同 分 词 算法 选 出 效果 最 好 的 ,然后 
基于 自动 化 分 词 结果 进行 下 一 步 的 人 工 标注 工作 。 
3 研究 设计 与 方法 
3.1 研究 设计 

本 研究 的 技术 路 线 图 见 图 1。 整 个 研究 流程 可 分 
为 3 个 步骤 :数据 收集 实验 研究 .结果 评估 。 首 和 驳 融 
合 权威 词 表 ,官方 标准 、 健 康 网 站 数据 及 其 他 医学 补充 
词 库 构建 医学 词 表 ,同时 从 互联 网 上 收集 公开 的 中 文 
电子 病历 数据 ,并 对 数据 进行 预 处 理 。 然 后 分 别 进行 
中 文 分 词 和 医学 实体 识别 的 实验 。 在 中 文 分 词 步骤 
中 ,对 电子 病历 的 字段 进行 分 词 , 对 比 jieba 工具 、 导 入 
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词典 后 的 jieba\ 无 监督 学 习 及 AC 自动 机 4 种 模型 的 
分 词 效果 ;在 医学 实体 识别 步 又 中 ,以 自动 分 词 和 人 工 
标注 结果 为 语 料 ,实现 基于 条 件 随 机 场 的 电子 病历 实 
体 识别 研究 。 最 后 进行 结果 评估 ,比较 分 词 结果 以 及 
不 同文 本 特征 下 的 实体 识别 效果 , 选 出 最 优 模板 。 


We 


| Jieba 分 词 Jieba+ 词典 


条 件 随 机 芭 
无 监督 学 习 AC 自动 机 


3.2 数据 来 源 

本 研究 使 用 的 数据 主要 包括 实验 数据 和 词典 数据 
两 部 分 ,前 者 用 于 分 词 效果 评估 和 实体 识别 的 训练 及 
测试 ,后 者 用 于 构建 分 词 词典 。 

3.2.1 实验 数据 由 于 数据 安全 问题 ,本 文 的 病历 数 
据 来 自 临床 执业 医师 技能 考试 模拟 题 。 该 考试 的 第 一 
站 为 病史 采集 与 病例 分 析 , 其 中 ,病例 由 患者 性 别 \ 年 
龄 ,主诉 ,摘要 ( 现 病史 、 既 往 史 及 个 人 史 ) 检查 ( 查 
体 、 辅 助 检查 、 实 验 室 检 查 ) 、 诊 断 \ 诊 断 依 据 、 鉴 别 诊 
断 、 进 一 步 检查 和 治疗 原则 共 十 部 分 组 成 。 一 条 示例 
如 表 1 所 示 , 笔 者 于 互联 网 中 共 采 集 类 似 病 例 100 条 


数据 收集 中 文 病历 数据 ”分词 词典 数据 | ee 
人 (其 中 90 条 西医 病例 ,10 条 中 医 病 例 ) ,用 作 分 词 和 实 
图 1 技术 路 线 体 识 别 的 实验 数据 。 
表 1 病例 分 析 示 例 数据 
OO 人 性别 男性 年 龄 23 岁 
CN 主诉 因 骑 车 进行 中 被 汽车 撞 倒 , 右 匡 部 着 地 半 小 时 ,到 急诊 就 诊 。 
2 摘要 患者 摔 倒 后 兽 有 约 5 分 钟 的 昏迷 ,清醒 后 ,自觉 头痛 ,恶心 。 
© 检查 BP 139 -80mmHg ,P80 次 /分 ,一般 情 况 可 ,神经 系统 检查 未 见 阳性 体征 。 头 颅 平 片 提示 : 右 额 桥 线形 上 骨折。 遂 将 患者 急诊 留 观 。 在 随后 2 
四 小 时 中 ,患者 头疼 逐渐 加 重 , 伴 呕吐 , 烦 燥 不 安 ,进而 出 现 意识 障碍 。 体 检 :T 38Y% ,BP 160/100mmHg,P60 次 /分 ,R18 次 /分 , 浅 昏 迷 , 左 侧 
| 瞳孔 3mm ,对 光 反 射 存在 , 右 侧 瞳孔 4mm ,对 光 反 应 迟钝 。 左 鼻 层 沟 浅 , 左 侧 Babinski”s Sign 阳性 。 
© ww 右 额 对 急性 硬 膜 外 血肿 
2 双人 入 二、 | 土 天 
和 nm 有 明确 的 外 伤 史 ; 有 典型 的 中 间 清 醒 期 ; 头 部 受 力 点 处 有 线形 骨折 ;出 现 进行 性 颅 内 压 增高 并 脑 疝 
(i 急性 硬 膜 下 血肿 及 颅 内 血肿 : 同 有 外 伤 史 ;血肿 多 出 现 于 对 冲 部 位 ;意识 障碍 持续 加 重 ;明确 诊断 靠 CT 
3 通 一 步 检 查 。” 头 版 CT 平 扫 
三 治疗 原则 。 。 急诊 行 开 鼎 血肿 清除 术 


Se :病例 来 源 为 医学 教育 网 (http://www. med66. com/ zhiyeyishijineng/linchuangti/binglifenxi/ ) 


'B 词典 数据 ”由 于 需要 的 是 带 有 类 别 标注 的 分 
司 泣 典 ,因此 构建 词典 的 第 一 步 是 定义 类 别 。UMILS 
对 医学 实体 的 定义 最 为 权威 且 历 中 悠久 ,该 系统 定义 
的 实体 语义 类 型 多 达 133 种 ,包括 解剖 结构 .生物 功 


词 


(CMeSH) .基于 国际 疾病 分 类 ICD - 10 扩展 修订 的 国 
家 标准 《GBAT 14396 - 2016 疾病 分 类 与 代码 》、 国 际 疾 
病 分 类 手术 码 ICD -9 - CM 中 译 版 ,以 及 中 医药 相关 
的 《中 医 疾病 国际 标准 编码 》 和 《中 医 病 证 分 类 与 代 


能 ,物理 对 象 等 6 个 大 类 '"!。 不 过 对 于 医学 病历 来 
说 ,涉及 不 到 如 此 多 的 实体 类 型 。2010 i2b2/VA chal- 
lenge 会 议 参考 UMLS 定义 的 语义 类 型 ,将 电子 病历 命 
名 实体 分 成 了 三 类 :医疗 问题 ( Medical problem ) ,检查 
(Test) 和 治疗 (Treatment)'“。 本 文 在 此 基础 上 将 医 
疗 问 题 拆 分 成 疾病 和 症状 ,治疗 拆 分 成 药物 和 手术 ,最 
后 得 到 5 种 医学 实体 类 别 一 一 疾病 ,症状 、 检 查 、 药 物 、 
手术 。 

构建 词典 的 第 二 步 是 从 以 上 5 种 类 别 出 发 ,搜集 
与 仆 取 每 种 类 别 的 权威 词 表 、 官 方 网 站 、 大 众 健康 网 站 
数据 及 其 他 补充 词 库 ,具体 如 下 。 

。 权威 词 表 数据 :目前 中 文 医学 权威 词 表 包括 基 
于 美国 国立 医学 图 书馆 《医学 主题 词 表 》 中 译本 和 《中 
国 中 医药 学 主题 词 表 》 的 《中 文 医 学 主题 词 表 》 
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码 》。 

。 官方 网 站 数据 :由 于 缺少 权威 的 中 文 药物 名 称 
词典 及 临床 检验 项 目 词典 ,本 文 下 载 并 爬 取 了 卫 计 委 
网 站 中 的 基本 药物 目录 、 医 疗 机 构 临 床 检验 项 目 目 录 ， 
以 及 国家 食品 药品 监督 局 网 站 上 药物 列表 中 的 所 有 药 
物 名 称 。 

。 健康 网 站 数据 :39 医学 教育 网 ( 补 网 址 ) 中 的 
临床 专业 术语 词典 检验 参考 值 及 临床 意义 ,疾病 临床 
科室 分 类 以 及 手术 库 。 

。 其 他 补充 词 库 :百度 百科 医学 词 条 ,搜狗 词 库 
中 较为 可 靠 的 医学 词 库 。 

构建 词 表 的 第 三 步 是 对 已 收集 到 的 词典 进行 预 处 
理 。 预 处 理 的 步骤 包括 :中 为 词语 标注 实体 类 别 和 来 
源 词 表 ;@ 删 除 分 类 代码 .删除 圆 括号 内 的 补充 语句 或 
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英文 名 称 ; 加 提取 方 括号 内 的 补充 同义词 ,添加 为 新 
词 ;@ 过 滤 出 字符 数 大 于 20 的 词语 ,进行 人 工 修改 或 
删除 。 

最 后 ,本文 按 以 上 步 又 构建 了 一 个 包含 136 253 个 
词语 的 医学 分 词 词典 。 其 中 ,疾病 类 的 词语 数量 为 54 
601 个 ,症状 类 为 3 316 个 ,检查 类 为 3 828 个 ,药物 类 
为 57 390 个 ,手术 类 为 17 118 个 。 

3.3 分词 方法 与 原理 

本 研究 使 用 常用 分 词 工具 jieba 中 文 分 词 .AC 自 
动机 无 监督 分 词 3 种 分 词 方式 进行 分 词 效果 的 对 比 。 

jieba 中 文 分 词 是 最 常见 的 中 文 分 词 工具 之 一 ,可 
提供 中 文 分 词 .关键 词 抽取 等 多 种 功能 ”。jieba 分 词 
器 以 “最 大 匹配 ”作为 匹配 规则 ,完成 基于 词典 的 候选 
词 挑选 和 最 终结 果 的 返回 。 假 如 利用 词典 搜索 对 于 被 
测 议 本 产生 的 候选 词 结 吉 果 集合 记 为 CEN (X) ,基于 词 
型 可 以 表示 为 : 

Y = argmaxv _cen(x) P(Y') 

C9AC 自动 机 ( Aho and Corasick ) 是 基于 Trie 树 结构 
的 用 模式 匹配 算法 5 ,在 信息 检索 ,字符 串 匹 配 等 多 

人 食 域 有 广泛 的 应 用 。 AC 自动 机 的 步骤 分 为 三 步 :中 ) 
iD 串 的 Trie 树 ;@Trie 树 添加 失败 路 径 ;@ 根 据 
人 异 的 自动 机 ,搜索 待 处 理 的 文本 。 整 个 搜索 过 程 会 
由 漠 当 前 关键 词汇 配 和 当前 关键 词 不 本 丙种 情景， 
前 关键 词 可 匹配 ,表示 从 当前 节点 可 以 沿 着 树 边 
条 路 径 可 以 到 达 目 标 字符 ,此 时 只 需 沿 该 路 径 走 
一 个 节点 继续 匹配 即 可 ,目标 字符 串 指针 移 向 下 
一 全 关键 词 继续 匹配 ;@ 当 前 字符 不 匹配 时 ,去 当前 节 
点 鸭 败 指针 所 指向 的 关键 词 继续 匹配 ,匹配 过 程 随 着 
指针 指向 根 节点 结束 。AC 自动 机 需要 重复 上 述 过 程 
中 的 一 种 ,直到 所 有 被 测 文档 查 到 结尾 为 止 。 

本 次 研究 中 的 无 监督 分 词 是 利用 凝固 度 的 大 小 来 
判断 是 否 成 为 一 个 词 。 一 般 凝 固 度 大 于 一 定 值 时 ,该 
片段 看 成 一 个 词 , 接 下 来 判断 边界 炉 的 问题 。 反 过 来 ， 
凝固 度 小 于 一 定 值 时 ,该 片段 不 能 成 为 一 个 词 。 在 被 
测 文档 中 ,把 凝固 度 小 于 某 一 值 的 片段 删除 , 剩 下 的 片 


通过 上 述 方式 ,初步 完成 分 词 后 
候选 词 集 进 行 筛选 。 
3.4 实体 识别 原理 与 方法 
在 自然 语言 处 理 领 域 中 ,条 件 随 机 场 是 一 个 序列 
标注 算法 ,其 结合 了 隐 马 尔 科 夫 模 型 和 最 大 信 模 型 的 
村 点 ,不仅 可 以 考虑 词语 本 身 和 上 下 文 特 征 ,还 可 以 加 
人 词典 等 外 部 特征 ,具有 较 好 的 实体 识别 效果 。 简 单 
来 说 ， ee ni 
一 组 输出 随机 变量 的 条 件 概 率 分 布 模型 。 不 过 一 般 用 
ee 性 链条 件 随机 场 , 即 输入 变 
A ee 的 结构 ,具体 公式 如 下 : 


,利用 词 频 可 以 对 


P(y | x) = 了 pA Be ROY) + Bh silyi ,x,i)) 


式 (2) 


其 中 ,Z(x) 为 规范 化 因子 ,计算 公式 为 : 
Z(x) = > exp( FB tly sy ,Xi) + Hp si(yi ,x,i)) 
式 (3) 
在 本 研究 中 ,x 指 病历 文本 序列 变量 ,y 为 实体 标 
注 变量 ,P(ylx) 是 在 给 定 x 的 条 件 下 输出 序列 y 的 条 
件 概 率 分 布 。 前 面 提 到 ,条 件 随 机 场 可 考虑 多 种 文本 


特征 ,这 是 因为 其 有 两 类 特征 函数 ,第 一 类 是 状态 特征 
1(y;， xi), 即 实体 类 别 只 和 当前 病历 文本 有 关 ; 


第 二 类 是 局 部 特征 函数 t(y;.1,y;, x, i) ,其 可 考虑 外 
关怀 代 ( 如 亲 从 大 小 写 、 上 下 文 ) 对 实体 类 别 的 影响 。 
由 此 可 见 , 病 历 实体 识别 的 关键 在 于 选取 病历 文本 中 
的 特征 。 本 研究 通过 分 析 病 历 特点 ,采用 了 以 下 特征 : 

(1) 词 性 特征 : 某 位 置 的 词语 标注 , 既 跟 这 个 词 的 
词性 相关 (如 命名 实体 以 名 词 居多 ) ,也 可 能 跟 上 下 文 
词语 的 词性 相关 ( 如 疾病 实体 经 常 出 现在 “ 患 "“ 诊 断 ” 
等 动词 前 后 ) 。 本 研究 借助 jieba 分 词 工具 进行 词性 标 
注 工作 。 

(2) 上 下 文 特征 :病历 文本 本 身 存 在 的 内 在 规律 
和 特点 ,需要 选择 上下文 窗口 ”构成 长 度 ,比如 对 于 
下 句 " 因 骑 车 进行 中 被 汽车 撞 倒 右 里 部 着 地 半 小 
时 到 急诊 就 诊 ” ,假设 此 刻 为 i, 所 在 位 置 的 词语 为 


段 则 可 以 成 为 某 一 词 。 此 过 程 , 可 以 通过 如 下 的 数学 
方式 表达 。 如 果 a、b 是 在 被 测 文档 中 的 相 邻 两 个 字 ， 
则 可 以 统计 (ab) 成 对 出 现 的 次 数 F(a、b) ,以 此 可 以 
估算 该 词 的 频率 P(a、b)。 然 后 ,再 对 ab 分 别 统计 出 
现 次 数 F(a) .F(b) 和 出 现 频率 P(a) .P(b)。 如 果 满 
足以 下 公式 则 可 以 在 语 料 中 将 两 个 字 断 开 。 


P(a,b) | 
Pa)PCp) < “(9 是 给 定 的 大 于 1 的 阔 值 ) 式 (1) 


“ 碳 杜 部 ” ,窗口 长 度 为 5 , 则 算法 会 自动 提取 1 -2,i- 
1,i,i+l,i+2 这 5 个 时 刻 的 词语 ,构成 一 个 长 度 为 5 
的 窗口 ,如 图 2 所 示 : 


汽车 | | 撞 侠 | 吉 亚 部 | 着 地 | El 到 || 急诊 || 就 疹 | 


图 2 上 下 文 特征 与 滑动 窗口 长 度 
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(3) 所 属 病历 模块 :在 我 们 的 病历 样本 中 ,每 个 病 
历 都 可 分 为 性 别 .年 龄 .主诉 摘要、 检查 .诊断 等 10 个 
模块 ,分 析 发 现 不 同 实体 类 别 在 不 同 模块 中 出 现 的 频 
次 有 很 大 不 同 ,例如 诊断 及 鉴别 诊断 模块 中 出 现 的 实 
体 多 为 疾病 ,治疗 模块 中 则 常见 药物 和 手术 实体 。 
此 对 于 每 个 词语 ,为 其 标注 所 属 模块 ,模块 名 称 与 标识 
符号 的 对 应 关系 如 表 2 所 示 : 

表 2 模块 名 称 与 标识 符号 对 应 关系 


模块 名 称 标识 符号 模块 名 称 标识 符号 
性 别 XB 诊断 ZD 
年 龄 NL 诊断 依据 YJ 
主诉 ZS 鉴别 诊断 JB 
摘要 ZY 进一步 检查 可 
检查 JC 治疗 原则 ZL 


党 (4) 模 块 中 的 位 置 :词语 所 在 病历 模块 中 的 相对 


a 


优生 可 能 会 反映 其 类 别 。 例 如 ,在 主诉 模块 中 ,大 部 分 
负 事 的 构成 特征 为 “症状 + 程度 "(如 腹痛 2 小 时 , 呕 
只 3 次 ) 。 计 算 该 词语 在 模块 中 出 现 的 位 置 顺序 数 和 


樟 习 中 共有 多 少 个 词语 数 ,二 者 相 比 , 则 可 以 用 一 个 取 


什 罗 间 为 [0, 1 | 的 小 数 来 标识 每 个 词语 在 模块 中 的 


hs 9 


本 研究 使 用 CRF + + 工具 实现 基于 条 件 随 机 场 算 
法 的 实体 标注 。 该 工具 需要 用 户 导入 训练 文件 和 测试 
文件 ,并 依据 所 选 特征 构建 模板 文件 。 一 个 训练 文件 
的 示例 见 图 3。 第 一 列 为 病历 文本 ,第 二 列 为 词语 词 
性 ,第 三 列 为 所 在 病历 模块 标识 ,第 四 列 为 模块 中 的 相 
对 位 置 ,最 后 为 实体 标注 类 别 。 我 们 采用 BMES 标注 
法 (B 是 词 首 ,M 是 词 中 ,E 是 词尾 ,S 为 无 关 词 ) 。 


加 
= 


倒 


这 吞吐 
诗 妆 


<<<5R%5<50m%m<ST 


oomoommommoomomomon 


骑 车 
进 
中 
被 
汽 
撞 
右 
着 
到 
急 
就 


a 
YW 


图 3 一 个 训练 文件 的 示例 样本 


CRF + + 的 模板 文件 可 描述 病历 上 下 文 信息 ,并 
选择 其 他 特征 。 本 研究 主要 采用 一 元 特征 (Unigram ) 
模板 形式 ,定义 的 模板 特征 见 表 3。 其 中 ,类 似 于 
“U00” 的 符号 为 特征 编号 ,书写 特征 时 采用 % x| row， 
col | 的 形式 ,row 表示 与 当前 位 置 的 相对 行 数 ,col 表示 
与 当前 位 置 的 相对 列 数 。 


表 3 电子 病历 实体 识别 时 的 特征 模板 定义 


征 名 称 特征 序号 模板 书写 模板 含义 
上 下 文 特征 U00 -04 %x[ -2,0] .%x[ -1;,0].%x[0,0] .%x[1;0]、.%x[2,0] 窗口 长 度 为 1 
g U05 -06 %x[ -1,0]/%x[0,0] .%x[0,0]/%x[1,0] 窗口 长 度 为 2 
AS U07 %x[ -1,0]/%x[0,0]/%x[1,0] 窗口 长 度 为 3 
= UO8 %x[ -2,0]/%x[ -1,0]/%x[0,0] /%x[1,0]/%x[2,0] 窗口 长 度 为 5 
词性 特征 009 %x[0， 此 位 置 的 词 的 词性 
U10 %x[ -1,1] 上 一 位 置 词 的 词性 
Ull %x[1, 下 一 位 置 词 的 词性 
U12 %x[ -2,1] 上 两 位 置 词 的 词性 
U13 %x[2, 下 两 位 置 词 的 词性 
模块 特征 U14 %x[0， 此 位 置 的 词 所 属 模块 
U15 %x[ -1, 2] 上 一 位 置 词 所 属 模块 
U16 %x[1, 下 一 位 置 词 所 属 模块 
位 置 特征 U17 %x[0, 此 位 置 的 词 在 所 属 模块 中 的 相对 位 置 
3.4 结果 评估 方法 分 词 准确 率 (precision) = 算法 正确 切 分 词语 总 数 x 100% 


对 结果 评 佑 方法 通常 采用 召回 率 (recall) \ 准 确 率 
(precision) 下 值 等 测评 指标 。 在 中 文 分 词 和 实体 识别 
过 程 中 都 会 采用 以 上 3 种 指标 ,具体 如 下 : 

(1) 中文 分 词 评估 指标 。 


\ 词 五 回 谈 (ar 算法 正确 切 分 词语 总 数 5 
分 词 召 回 率 (recall) = 人 工 切 分 词语 的 总 数 X 100% 
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算法 切 分 的 词语 总 数 


NA _2 x 分 词 召 回 率 x 分 词 准确 率 
分 河 值 “分词 召回 率 + 分 词 准确 率 “X100% 


(2) 实 体 识 别 评估 指标 。 
实体 识别 召回 率 (recall) = 


( 六 算法 正确 识别 的 i 类 词性 总 数 
人 工 识别 的 i 类 词性 总 数 


jn) x100% 


这 
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实体 识别 准确 率 (precision) = 

,算法 正确 识别 的 1 类 词性 总 数 
(3 多 分 的 i 瑞 记 了 数 (") x100% 
实体 识别 了 值 = 


2 x 实体 识别 召回 率 x 实体 识别 准确 率 、|00o 
实体 识别 召回 率 + 实体 识别 准确 率 


召回 率 和 准确 率 越 高 ,表明 分 词 和 实体 识别 算法 
的 效果 越 理 想 。 但 是 召回 率 和 准确 率 , 如 同 查 全 率 和 
查 准 率 , 相 互 互 斥 ,通常 一 项 较 高 , 则 另 一 项 较 低 ” 。 
为 了 综合 考虑 召回 率 和 准确 率 ,将 把 两 项 指标 综合 计 
算 为 Ff 值 ,对 算法 进行 测评 。F 值 越 高 表明 该 算法 的 
性 能 越 好 。 本 次 实验 以 人 工分 词 和 人 工 标识 为 标准 ， 
人 工分 词 和 标识 过 程 采 取 多 人 相互 验证 的 方式 。 


4 研究 结果 


. 扎 分 词 结果 
CN 本 研究 对 比 了 jieba 分 词 jieba + 用 户 词 典 、 无 监 


上 表 4 电子 病历 分 词 原则 
分 词 方法 
jieba 分 词 ”jieba + 用 户 词典 无 监督 学 习 ” AC 自动 机 
P(a,b) 


Y = argmaxy’, ecEN(x) P(Y') 


Pa) Pb) < a _Trie 结构 


月 . 月 . 目 . 
人 XE 否 AE 


按照 上 述 4 种 方案 对 电子 病历 进行 分 词 ,结果 见 
表 5% 其 中 ,AC 自动 机 的 下 值 最 高 ,可 以 达到 82% ;其 


次 网 加 入 医学 词典 的 jieba 分 词 ,F 值 为 74% ;第 三 》 
基于 信息 信 方 法 的 无 监督 学 习 模型 ,F 值 为 69% ;最 后 
为 没有 词典 的 jieba 分 词 器 ,F 值 为 66% 。 

表 5 电子 病历 分 词 结果 原则 


测评 结果 召回 率 准确 率 F 值 
jieba 分 词 72% 60% 66% 
jieba + 用 户 词 典 81% 68% 74% 
无 监督 学 习 78% 62% 69% 
AC 自动 机 89% 76% 82% 


出 现 以 上 结果 的 原因 ,可 以 归结 为 以 下 儿 个 方面 : 

(1) 电 子 病历 数量 的 影响 。 本 研究 的 样本 数据 为 
100 条 电子 病历 ,整体 样本 量 偏 低 ,导致 无 监督 学 习 和 
不 涉及 到 词典 的 算法 的 召回 率 和 准确 率 都 偏 低 。 在 无 
监督 学 习 过 程 中 ,样本 量 较 少 ,难以 进行 多 项 边界 精 交 
又 分 析 ; 而 基于 词典 的 算法 不 依赖 于 样本 数 ,而 依赖 于 
词典 的 准确 性 。 由 于 收集 到 的 词语 数量 和 范围 比较 


广 , 因 此 基于 词典 的 分 词 效果 更 为 理想 。 

(2) 数 量 单位 的 敏感 度 影响 。 电 子 病 历 中 ,尤其 
是 实验 室 检查 部 分 涉及 很 多 数量 单位 ,如 人 体 体 温 的 
摄氏 度 ,用 药 量 的 U/L、 体 内 细胞 含量 的 umolLL 等 。 
四 种 分 词 算法 对 数量 单位 的 敏感 度 不 同 ,导致 整体 效 
果 的 不 同 。 涉 及 到 词典 的 算法 对 数量 单位 的 敏感 度 比 
较 强 ,单位 的 区 分 度 比 较 好 ,而 基于 无 监督 学 习 的 分 
词 ,单位 敏感 度 比 较 低 。 如 “UAL” 和 “pmol/L” ,无 监 
督学 习 过 程 中 ,总 会 把 “AL” 部 分 和 前 半 部 分 分 开 , 其 
结果 为 “<U” 和 “/L”, “pmol” 和 “/L”。 

(3) 医 学 词语 的 专业 性 较 强 。 由 于 不 同 患者 的 病 
史 和 治疗 方案 不 同 ,病历 中 涉及 到 的 医学 词语 多 种 多 
样 。 一 些 词语 在 病历 中 的 出 现 次 数 较 少 , 词 频 较 低 ,一 
定 程 度 上 导致 无 监督 学 习 的 效果 比较 差 。 总 而 言 之 ， 
由 于 医学 病历 的 专业 性 比较 强 , 光 靠 无 监督 学 习 难 以 
进行 准确 的 分 词 。 结 合 词 典 和 统计 学 习 的 方式 ,可 以 
大 大 提高 分 词 的 效果 。 
4.2 实体 识别 结果 

本 研究 在 构建 训练 样本 和 测试 样本 时 ,采取 层次 
抽样 的 方法 ,将 中 、 西 医 病历 分 开 , 每 种 类 别 病历 中 各 
抽取 70% 用 作 训 练 ,余下 30% 为 测试 样本 。 其 中 , 训 
练 样本 中 共有 14 664 个 词 ,测试 样本 有 6 028 个 词 。 
整体 来 看 ,模型 效果 如 表 6 所 示 : 

表 6 病历 实体 识别 效果 评估 


评估 指标 数值 
算法 识别 的 正确 实体 数 1 846 
算法 识别 的 所 有 实体 数 2 119 
实际 实体 数 2 460 
准确 率 87. 12% 
召回 率 75. 04% 
F 值 80.63% 


4.2.1 不 同类 别 对 实体 识别 结果 的 影响 ”不同 类别 
的 实体 对 识别 结果 也 会 有 一 定 影响 。 从 FT 值 看 ( 见 图 
4) “检查” 和 “疾病 ”的 识别 效果 最 好 ,其 次 是 “药物 ” 
与 “手术 ”, “症状 ”的 识别 效果 不 太 理 想 。 

对 比 准确 率 和 召回 率 ( 见 图 5) ,所 有 实体 类 别 的 
准确 率 都 明显 高 于 召回 率 ,其 中 以 “药物 ”实体 最 为 明 
显 ,准确 率 高 达 94% ,召回 率 却 只 有 63% ;其 次 是 “ 症 
状 ” ,即便 准确 率 为 88% ,由 于 召回 率 最 低 (62% ) , 导 
致 值 不 其 理想 ;值得 一 提 的 是 “检查 ”实体 的 识别 结 
果 ,准确 率 与 召回 率 相当 ,都 在 85% 左右 。 

4.2.2 不 同 特征 对 实体 识别 结果 的 影响 “特征 选择 
对 CRF 的 训练 效果 具有 很 大 影响 。 为 了 逐步 分 析 不 
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@G 图 5 不 同类 别 的 实体 识别 准确 率 与 召回 率 比较 


于 得 征 和 特征 组 合 对 于 CRF 自动 识别 的 影响 ,寻求 相 
对 声 佳 的 模板 设置 ,本 研究 分 别 对 比 了 仅 选 取 一 个 特 
能 首选 两 个 特征 和 选取 所 有 特征 的 实体 识别 效果 。 
CU 首先 ,由 于 位 置 特征 和 模块 特征 息息相关 ,为 探讨 
位 置 特征 是 否 对 实体 识别 有 所 帮助 ,需要 对 比 仅 有 模 
其 胰 征 以 及 模块 + 位 置 特征 的 识别 效果 。 结 果 显 示 
(网 素 7) ,位 置 特征 不 仅 没有 增进 模型 的 识别 效果 , 反 
而 实 大 拉 低 准 确 率 与 召回 率 ,因此 后 续 将 不 子 考 虑 此 


$6: 
7 模块 特征 与 “模块 + 位置 ”特征 的 识别 效果 对 比 


准确 率 召回 率 F 值 
只 有 模块 特征 87. 85% 67.28% 76. 20% 
模块 + 位 置 特征 49.13% 33.33% 39.72% 


仅 选取 一 个 特征 的 对 比 结果 见 表 8 ,可 以 看 到 上 
下 文 特征 和 模块 特征 的 了 值 更 高 ,其 中 上 下 文 特征 的 
识别 准确 率 达 到 90% 。 
表 8 仅 选 取 一 个 特征 的 识别 效果 对 比 


准确 率 召回 率 F 值 
上 下 文 特征 90. 83% 61.18% 73.11% 
词性 特征 47.15% 30.65% 37.15% 
模块 特征 87. 85% 67.28% 76. 20% 


任 选 两 个 特征 的 对 比 结果 见 表 9, 词 性 + 模块 特 
征 的 了 上 值 最 高 ,甚至 优 于 考虑 到 所 有 特征 的 模型 效果 。 
可 见 一 味 追 求 融合 更 多 特征 并 不 是 关键 。 
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表 9 任 选 两 个 特征 的 识别 效果 对 比 


准确 率 召回 率 F 值 
上 下 文 + 词 性 86. 48% 69.67% 77.17% 
上 下 文 + 模块 89.04% 71.34% 79.21% 
词性 + 模块 87.78% 78.54% 82.90% 


5 ”讨论 与 结论 


5.1 研究 结果 

为 响应 健康 医疗 大 数据 应 用 发 展 的 需求 ,本 研究 
对 医疗 活动 中 最 常见 的 电子 病历 数据 进行 了 分 词 和 实 
体 识别 ,得 到 的 研究 结果 如 下 : 

(1)AC 自动 机 的 效果 最 好 ,其 下 值 可 达 82% 。 原 
因 在 于 该 算法 融合 了 词典 和 统计 方法 ,一 方面 本 身 基 
于 大 量 的 医学 词典 ,对 特殊 的 医学 词 条 比较 敏感 , 男 一 
方面 结合 了 统计 方法 ,可 以 对 未 登录 词 进 行 挖 气 和 发 
现 。 此 外 ,电子 病历 数量 的 影响 .数量 单位 的 敏感 度 影 
响 ,以 及 医学 词语 的 强 专 业 性 ,导致 无 监督 学 习 的 方式 
和 开源 分 词 工具 的 分 词 效果 较 差 。 总 之 ,针对 专业 性 
比较 强 的 领域 ,结合 词典 的 方式 可 以 一 定 程度 上 提高 
分 词 的 效果 。 

(2) 基 于 条 件 随机 场 的 病历 实体 识别 效果 较 好 ,下 
值 最 高 为 82.9% 。 对 于 不 同类 别 的 实体 来 说 , “检查” 
和 “疾病 ”的 识别 效果 最 好 ,因为 二 者 具有 很 强 的 格式 
化 特征 ,病历 中 的 常见 检查 项 目 高 度 相 似 , 而 疾病 实体 
多 出 自 病历 的 “诊断 ”和 “上 鉴别 诊断 ”两 个 模块 ;症状 ” 
的 识别 效果 不 太 理想 ,一 方面 在 于 描述 症状 的 语句 较 
为 口语 化 , 另 一 方面 与 其 出 现在 多 个 病历 模块 中 有 关 ; 
病历 文本 的 位 置 特征 并 没有 增进 模型 的 识别 效果 ,并 
不 一 定 是 因为 该 特征 对 实体 识别 的 贡献 不 大 ,有 可 能 
是 本 研究 定义 的 数字 表达 方式 造成 的 机 器 误解 ;特征 
选取 不 在 于 数量 多 少 , 能 更 准确 地 表达 文本 语义 才 是 
研究 的 关键 。 

5.2 研究 不 足 

在 研究 的 过 程 中 ,我 们 遇 到 了 以 下 问题 : 

(1) 词典 的 筛选 、 合 并 与 构建 。 目 前 词典 构建 的 
来 源 数据 除了 官方 ,权威 数据 外 ,还 有 来 自 网 络 的 医学 
词 库 , 虽 然 网 络 词 库 可 大 大 扩充 词语 数量 级 ,但 其 正确 
性 不 敢 保 证 。 权 威 医学 词 表 虽 然 很 正式 ,但 预 处 理 非 
常 繁琐 ,上 且 很 有 可 能 出 现 数据 处 理 不 当 的 问题 。 例 如 
ICD - 10 中 ,大 部 分 方 括号 中 的 内 容 为 可 替换 的 同 义 
词 ,因此 我 们 采取 “提取 方 括 号 内 词语 ,添加 为 新 词 ” 
的 处 理 方法 ,这 种 做 法 对 于 “ 利 斯 特 菌 病 [ 李 司 忒 氏 菌 
病 ]” 这 个 词语 来 说 ,可 直接 提取 出 [ 李 司 忒 氏 菌 病 ]， 
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但 对 于 “中 型 [典型 ] 替 乱 ”, 所 提取 出 的 [典型 ] 一 词 并 
不 是 一 个 疾病 ;再 比如 ,ICD -9 - CM 中 ,有 很 多 辅助 
编码 词 ,“ 其 他 淋巴 结 根治 性 切除 术 排 除 :合并 根治 性 
乳房 切除 ”中 的 “排除 ”以 及 “胸部 食管 造 口 术 另 编码 : 
任何 部 分 切除 术 ” 中 的 “ 另 编码 "都 不 是 手术 中 的 术 
语 ,处 理 起 来 问题 很 多 。 

(2) 人工 标注 的 规则 制定 。 由 于 目前 缺乏 中 文 的 
电子 病历 人 工 标注 语料库 ,因此 需要 我 们 的 研究 小 组 
自行 标注 。 然 而 ,医学 领域 非常 特殊 , 非 专业 人 员 理 解 
起 来 尚 有 困难 ,虽然 小 组 中 有 一 位 医学 本 科 背 景 的 成 
员 , 但 和 临床 医生 的 经 验 相 去 其 远 。 人 工 标注 的 规则 
制定 ,一 方面 需要 请 教 医生 ,比如 “骨折 ”“ 休 克 ”“ 药 
物 过 敏 " 等 词 究竟 为 疾病 还 是 症状 ; 另 一 方面 需 详细 讨 
论 分 词 的 细 粒 度 问题 ,如 “自觉 头痛 "应 分 为 两 个 词 
“上 训 头 痛 " 还 是 个 词 ,“ 心 . 肺 . 腹 未 见 异 常 "应 分 
涯 让 | 肺 腹 未 见 异常 "还 是 “ 心 肺 腹 未 见 异常 "等 。 
5G3) 医 学 实体 的 修饰 问题 。 在 标注 的 过 程 中 ,我 
们 芝 现 即便 机 器 学 习 对 了 ,但 在 语义 上 也 有 可 能 千 差 
万 别 。 例 如 “3 周 前 咽 部 不 适 ” 中 的 时 间 成 分 “3 周 ”， 
详细 了 该 症状 的 时 间 与 程度 ;“ 肺 结核 (浸润 型 ? 慢性 
J ”中 的 待 查 成 分 “?” ,说明 并 不 确定 该 串 
者 证 有 哪 种 结核 病 ;最 重要 的 是 类 似 于 “巩膜 无 黄 染 ” 
中 的 否定 成 分 "无 ,巩膜 黄 染 "与 “无 黄 染 "对 医生 的 
诊 哪 影响 很 大 , 若 仅 识别 并 提取 出 “ 黄 染 "二 字 , 对 患 
和 健康 状况 度量 有 重要 影响 ,对 今后 进一步 的 数据 
时 甚至 会 产生 反面 作用 。 

5’ 必 未 来 研究 方向 

CD 之 后 的 研究 将 先 解决 如 前 所 述 的 不 足 与 问题 , 完 
善 词典 ,咨询 .调查 与 构建 人 工 标注 规则 ,定义 并 提取 
常见 医学 实体 修饰 。 此 外 ,还 有 两 个 方面 的 发 展 方向 。 

(1) 实 体 标注 的 半自动 化 实现 。 在 本 研究 中 ,对 
实体 的 类 别 标注 主要 通过 人 工 完成 ,事实 上 耗费 了 较 
多 的 时 间 与 精力 。 今 后 ,可 探讨 如 何 将 医学 词典 应 用 
于 标注 实体 的 过 程 中 ,或 者 构建 多 分 类 器 实现 协同 训 
练 ,从 而 尽 可 能 地 减少 人 工 标注 的 工作 量 

(2) 实 体 关系 的 定义 与 抽取 。 电 子 病历 中 的 实体 
不 是 孤立 存在 的 ,相互 之 间 存 在 着 一 定 的 关系 ,这 种 关 
系 正 是 医疗 知识 的 主要 体现 。 因 此 ,在 识别 命名 实体 
的 基础 上 ,还 需要 定义 不 同 实体 之 间 的 关系 ,从 而 形成 
医疗 领域 的 知识 图 谱 。 
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in Chinese Electronic Medical Record 
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Abstract. [| Purpose/significance | Healthcare big data is an important basic strategic resource in China. Word seg- 


mentation and entity recognition of Chinese electronic medical record( EMR ) is helpful in extracting important information 


fr a large number of unstructured text. | Method/process | In this study, a Chinese medical thesaurus is firstly built in 


teziis of authoritative medical subject headings, official standards and health website data; then, the effect of four segmen- 


tafliod methods is compared based on the corpus of artificial segmentation and manual annotation; finally, CRF model is 


uedsto identify 5 entities, including disease, symptom, test, drug and treatment. [ Result/conclusion | Results show 


thaE( i) AC automaton model has the best F -measure in EMR word segmentation, which is 82% ; (ii) compared with 


Wiésfern medical record, it’s difficult to identify medical entities in the record of traditional Chinese medicine. Besides, 


“Pest” and “Disease” entities have better F -measure, while the F -measure of “ Symptom” entity is not that ideal. 


Keywords: healthcare data mining electronic medical record Chinese word segmentation named entity recogni- 


tion 
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